2024 主流AI图像生成工具一览

进入2024，我们可以看到AI图像生成应用的主流基本上分成了三大派，Midjourney,DallE 3与 Stable Diffusion为代表的各种开源diffuser模型，其他还有一些诸如Google的imagen，或者ideogram使用量相对少很多就不一一介绍。Midjourney,DallE 3与 Stable Diffusion之中前两者都是闭源的在线服务，国内使用有重重障碍，而Stable Diffusion是开源的应用，不仅催生出许多国内的AI绘画应用服务，还可以让我们自行下载源代码与模型，搭建在自己的计算机上运行，因此Stable Diffusion也拥有丰富多样的各种社区模型功能插件，有着最多的可能性，最大的扩展能力，也最能够结合生产力流程帮助我们完成很多创意工作。Stable Diffusion提出的潜空间扩散影响深远，其他的diffuser模型或多或少都参考借鉴了Stable Diffusion的设计，结构比较相似，能通过一些界面工具整合在一起使用，这里面甚至包括一些用于声音，视频，三维模型的diffuser模型，例如DeepFloyd IF，Kandinsky，aMUSEd等等。

Midjourney V6

Midjourney是AI绘图当之无愧的顶流，AIGC时代的第一个商业奇迹，11个人做出一年2亿美金的营收。Midjourney使用专有模型，并未开源，V5.2及之前的版本设计结构可能与Stable Diffusion相差不大。但是V6是一个完全重新训练的模型，推测是和DallE 3 一样通过LLM大语言模型进行图文对齐来训练的，所以现在V6对提示词更敏感，能理解一定的空间关系，能够更准确的画出文字（目前仅限于英语）——这更像DallE 3，这是模型理解人类意图能力的巨大进步，也许相较于DallE 3还稍弱一点（毕竟DallE 3有GPT4V，那是目前最好的大模型），但是用于商业广告，艺术创作上，Midjourney V6越来越像一个技艺精湛的人类助手。而且V6被优化了图像细节的表现能力，有人甚至做出了将一片牛肉的细节不断放大直到细胞层级的视频。请注意，V6 目前还处于alpha阶段，缺少 V5.2 模型中的一些功能，包括左右平衡和缩小，但创始人大卫霍尔兹表示这些功能将在 V6 的后续更新中实现(Midjourney 使用时可以通过-v 参数切换模型版本，除了V5,V6，还可以切换二次元动漫风格模型nijijourney)。

Midjourney作为许多人眼中最卓越、质量最出色、也最具创意的 AI 艺术生成器，V6的更新表明其从未停止技术探索和模型改进的脚步，而且在市场上也始终保持着领先地位。

准确的英文文字表现：马克笔书写的"Hello World!"

2024 主流AI图像生成工具一览

更真实的细节以及对物体之间关系更准确的理解：

2024 主流AI图像生成工具一览

V5 与V6的对比

V5:

2024 主流AI图像生成工具一览

V6:

2024 主流AI图像生成工具一览

Dall-E 3

DALL-E 3是2023年10月openai发布的 AI 图像生成器的最新版本，DALL-E 3也是微软 Bing Creator AI 套件的一部分，提供免费额度供公众使用。它不是DALL-E 2的简单升级，而是基于GPT4 的语言理解与视觉理解能力建筑的新一代生成式图像AI，与目前能力最强的LLM对齐，这是目前最能理解人类意图的生成式图像AI。

DALL-E 3 可以在图像中生成可读的文本，而不是随机的乱码。它还可以准确地描绘历史人物和著名名人。DALL-E 3 还可以通过 ChatGPT 界面用对话形式不断对图像进行改进，是的，就跟你要求设计师改稿一样。

例如要求DALL-E 3 罗列50样家居日常用品：

2024 主流AI图像生成工具一览

然后，让一个人带着它们去冲浪：

2024 主流AI图像生成工具一览

还可以把人物换成老奶奶：

2024 主流AI图像生成工具一览

我想这大概是跟飞屋环游记里的老爷爷最搭的老伴儿了吧!

Stable Diffusion的源代码是python程序，需要通过python程序语言来使用，这当然非常不方便，对设计师来说难度也太大了，所以开源社区为Stable Diffusion开发了各种各样的界面工具，我为大家简单介绍现在其中使用最广泛的三个界面：AUTOMATIC1111 stable-diffusion-webui （以下简称WebUI),ComfyUI和Fooocus。

这些工具都可以自由地在各个Stable Diffusion模型版本中切换，当前宣布的最新版本是Stable Diffusion 3,但是还没公开发布。

WebUI是最早的Stable Diffusion界面工具，诞生于2022年8月，也可能是目前应用最广泛的Stable Diffusion界面工具，github上获得了百万星标。它是一个基于传统网页应用界面的工具，各种新的AIGC相关的模型，功能，一般都会开发出基于WebUI的扩展插件。但是WebUI基本的界面工具功能是比较简单的，想要用好需要安装各种扩展组件，而这些组件的配置参数，功能开关，以及图像生成的相关参数设置散落在各个页面，真正想要在工作流使用起来还是比较麻烦。

2024 主流AI图像生成工具一览

ComfyUI诞生于2023年1月，它是一个基于节点工作流的Stable Diffusion界面工具，其操作有些类似3D软件的节点材质工具或者集合节点工具，对大部分人来说有点陌生。但是节点化的好处是将AI绘画的工作流程一个一个环节拆分出来，每个环节都可以加入自定义的操作，组合成完成特定任务的工作流，AI绘画的生成能力得以漫无边际的扩展，而且开发节点比为WebUI开发插件要容易得多，随着越来越多的用户开始转向ComfyUI，开源社区也围绕ComfyUI开发了大量定制节点，从功能数量上都已经超过了WebUI的扩展插件，甚至出现了例如将设计好的特定ComfyUI工作流转换为简单web应用的节点，结合绘画软件Krita进行绘画涂鸦实时生成AI绘画结果的节点，大大地拓展了AI绘画作为生产力工具应用的边界。

2024 主流AI图像生成工具一览

Fooocus

Fooocus诞生于2023年8月，是Controlnet作者张吕敏( Github用户名lllyasviel )的新项目，lllyasviel 在SDXL发布之后，大部分精力都用在了Fooocus上，以ComfyUI为底层，但采用了与WebUI类似但更简洁易用的界面，基于SDXL模型进行了大量的优化，例如使用了GPT2模型作为默认的提示词优化器，功能使用上参照Midjourney，能够用简单的提示词生成媲美Midjourney V5的图像。